The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
The deep learning community has witnessed an exponentially growing interest in self-supervised learning (SSL). However, it still remains unexplored how to build a framework for learning useful representations of raw music waveforms in a self-supervised manner. In this work, we design Music2Vec, a framework exploring different SSL algorithmic components and tricks for music audio recordings. Our model achieves comparable results to the state-of-the-art (SOTA) music SSL model Jukebox, despite being significantly smaller with less than 2% of parameters of the latter. The model will be released on Huggingface(Please refer to: https://huggingface.co/m-a-p/music2vec-v1)
translated by 谷歌翻译
从单眼RGB图像中重建3D手网络,由于其在AR/VR领域的巨大潜在应用,引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言,即使在连续录制会话中用户没有变化的实际应用程序中实际上可用,因此忽略了该主题的身份。在本文中,我们提出了一个身份感知的手网格估计模型,该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外,为了处理未见测试对象的用例,我们提出了一条新型的个性化管道来校准固有的形状参数,仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。
translated by 谷歌翻译
变压器是一个变革性框架,可以对顺序数据进行建模,并在广泛的任务上取得了出色的性能,但具有高计算和能源成本。为了提高其效率,一个受欢迎的选择是通过二进制化压缩模型,将浮点值限制为二进制值,以节省资源消耗,这是由于廉价的钻头操作而大大减少了资源。但是,现有的二进制方法仅旨在最大程度地统计地减少输入分布的信息损失,同时忽略了注意机制核心的成对相似性建模。为此,我们提出了一种新的二进制范式,通过二维软式散发范式通过二维的散布量表(称为ecoformer)将原始查询和钥匙映射到锤子空间中的低维二进制代码中。学会了内核化的哈希函数,以以自我监督的方式从注意图中提取的基础真相相似性关系匹配。基于二进制代码的内部乘积与锤距距离以及矩阵乘法的关联性质之间的等效性,我们可以通过将其表示为二进制代码的点产量来近似线性复杂性中的注意力。此外,查询和钥匙的紧凑型二进制表示使我们能够用简单的积累来代替大多数昂贵的多重收益操作,以节省边缘设备上的片上能量足迹。关于视觉和语言任务的广泛实验表明,生态学家始终如一地达到与标准专注的可比性,同时消耗了更少的资源。例如,与标准注意相比,基于PVTV2-B0和Imagenet-1K,EcoFormer可实现73%的能量足迹降低,性能下降仅为0.33%。代码可从https://github.com/ziplab/ecoformer获得。
translated by 谷歌翻译
最近,视觉变压器及其变体在人类和多视图人类姿势估计中均起着越来越重要的作用。将图像补丁视为令牌,变形金刚可以对整个图像中的全局依赖项进行建模或其他视图中的图像。但是,全球关注在计算上是昂贵的。结果,很难将这些基于变压器的方法扩展到高分辨率特征和许多视图。在本文中,我们提出了代币螺旋的姿势变压器(PPT)进行2D人姿势估计,该姿势估计可以找到粗糙的人掩模,并且只能在选定的令牌内进行自我注意。此外,我们将PPT扩展到多视图人类姿势估计。我们建立在PPT的基础上,提出了一种新的跨视图融合策略,称为人类区域融合,该策略将所有人类前景像素视为相应的候选者。可可和MPII的实验结果表明,我们的PPT可以在减少计算的同时匹配以前的姿势变压器方法的准确性。此外,对人类360万和滑雪姿势的实验表明,我们的多视图PPT可以有效地从多个视图中融合线索并获得新的最新结果。
translated by 谷歌翻译
数据驱动的设计和创新是重复使用和提供宝贵和有用信息的过程。但是,现有的设计创新语义网络基于仅限于技术和科学信息的数据源。此外,现有研究仅在统计或语义关系上建立语义网络的边缘,这不太可能充分利用两种类型的关系中的好处,并发现设计创新的隐性知识。因此,我们构建了基于Wikipedia的语义网络Wikilink。 Wikilink引入了概念之间的统计重量和语义权重的合并重量,并开发了四种算法来启发新想法。进行评估实验,结果表明,该网络的特征是术语,关系和学科的高度覆盖范围,这证明了网络的有效性和实用性。然后,演示和案例研究结果表明,Wikilink可以作为概念设计创新的思想生成工具。 Wikilink的源代码和后端数据提供开源,供更多用户探索和构建。
translated by 谷歌翻译
多元时间序列异常检测已在半监督的设置下进行了广泛的研究,其中需要所有具有正常实例的训练数据集。但是,准备这样的数据集非常费力,因为每个数据实例应完全保证是正常的。因此,希望在没有任何标签知识的情况下基于数据集探索基于数据集的多元时间序列异常检测方法。在本文中,我们提出了MTGFLOF,这是通过动态图和实体意识到的归一化流量进行多变量时间序列异常检测的无监督异常检测方法,仅依靠广泛接受的假设,即异常实例比正常情况表现出稀疏的密度。但是,实体之间的复杂相互依赖性和每个实体的不同固有特征对密度估计提出了重大挑战,更不用说基于估计的可能性分布来检测异常。为了解决这些问题,我们建议通过图结构学习模型来学习实体之间的相互关系,这有助于建模多元时间序列的准确分布。此外,考虑到各个实体的独特特征,开发了实体意识到的归一化流,以将每个实体描述为参数化的正态分布,从而产生细粒密度估计。结合了这两种策略,MTGFlowChieves出色的异常检测性能。进行了现实世界数据集的实验,表明MTGFLOW的表现分别超过了最先进的(SOTA),分别对SWAT和WADI数据集的实验分别高出5.0%和1.6%的AUROC。同样,通过单个实体贡献的异常得分,MTGFLOF可以为检测结果提供解释信息。
translated by 谷歌翻译
联合学习(FL)已成为机器学习中的实用且流行的范式。但是,目前,没有系统的解决方案涵盖不同的用例。从业者经常面临如何为其用例选择匹配的FL框架的挑战。在这项工作中,我们提出了Unifed,这是对现有开源FL框架进行标准化评估的第一个统一基准。在15个评估方案中,我们从功能,可用性和系统性能的角度出发了9个现有流行开源的FL框架的定性和定量评估结果。我们还根据基准结论提供有关框架选择的建议,并指出未来的改进方向。
translated by 谷歌翻译
文档信息提取(DIE)由于其在现实世界中的各种高级应用而引起了越来越多的关注。尽管最近的文献已经取得了竞争成果,但在处理具有嘈杂的OCR结果或突变布局的复杂文档时,这些方法通常会失败。本文提出了用于现实世界情景的生成多模式网络(GMN),以解决这些问题,这是一种强大的多模式生成方法,没有预定义的标签类别。借助精心设计的空间编码器和模态感知的蒙版模块,GMN可以处理复杂的文档,这些文档很难序列化为顺序。此外,GMN可以容忍OCR结果中的错误,并且不需要字符级注释,这是至关重要的,因为对众多文档的细粒注释很费力,甚至需要具有专门域知识的注释者。广泛的实验表明,GMN在几个公共模具数据集上实现了新的最新性能,并超过了其他方法,尤其是在现实的场景中。
translated by 谷歌翻译
图形神经网络(GNN)在许多基于图的任务中表现出强大的表示能力。具体而言,由于其简单性和性能优势,GNN(例如APPNP)的解耦结构变得流行。但是,这些GNN的端到端培训使它们在计算和记忆消耗方面效率低下。为了应对这些局限性,在这项工作中,我们为图形神经网络提供了交替的优化框架,不需要端到端培训。在不同设置下进行的广泛实验表明,所提出的算法的性能与现有的最新算法相当,但具有更好的计算和记忆效率。此外,我们表明我们的框架可以利用优势来增强现有的脱钩GNN。
translated by 谷歌翻译